其他

计算机辅助医疗信息标准化编码的现况及发展

2018-01-30 秦宇辰 吴骋等 中国数字医学
点击上方中国数字医学 可以订阅哦!


导读:对医疗卫生信息进行标准化编码的需求日益增长,传统人工编码流程已难以满足新条件下的医学编码工作需要,计算机辅助编码(Computer Assisted Coding, CAC)因此应运而生。对计算机辅助编码的产生背景、概念定义、实际应用效果等情况进行了简要论述,对比分析了该技术在国内外的发展现状及趋势,论述了须考虑的技术优劣势问题,揭示了该技术对解决我国医学编码工作现存矛盾,推动卫生信息标准化进程,提升医疗服务水平所具有的重大意义。


医学编码(Medical Coding)是指依据既定标准将发生的医疗诊断、诊疗过程措施、卫生服务、设备器材等转换为通用的医疗数字编码。高效、高质的医学编码工作对医疗卫生信息的标准化、存储、传输、交流、管理、挖掘利用等具有重要意义。随着医疗卫生信息化进程的快速推进,传统编码方式日渐显示出效率低、准确性差、一致性差、对新变化反应性差等诸多劣势,急需革新既有工作流程及方法以适应新形势、新条件下医学编码工作所面临的新挑战。在这一背景下,计算机辅助编码(Computer Assisted Coding, CAC)应运而生。


1、计算机辅助编码简介


依据美国卫生信息管理协会(American Health Information Management Association, AHIMA)的定义,计算机辅助编码是指基于医疗执业者提供的各类医疗资料使用计算机软件自动产生一系列相应的医学编码供相关专业人员审核、验证和使用。如图1所示,现有的CAC解决方案一般分为两类:一种是基于自然语言处理(Natural Language Processing, NLP),一种是基于结构化输入(Structured Input, SI)。基于NLP的CAC通过模仿人类阅读理解文档的行为,对以自由文本形式存在的各类描述性医疗资料进行语义分析自动提取相关信息并转化为医学编码。例如,使用该技术基于出院小结自动产生疾病诊断编码。基于NLP的CAC一般又细分为基于统计模型的方法和基于规则的方法,前者主要利用既往语料库中特定字词及其相应编码的统计分布规律,当该字词再次出现时依据既往分布规律做出编码预测;后者则相当于将专家确定的编码方式及规则内化为计算机程序或算法,当特定字词出现时则依据既有规则对其进行编码。现今大多数基于NLP的CAC软件均同时使用这两种方法以提高编码准确性。结构化输入,又称编码输入,是指事先将医学编码与其对应的临床术语描述链接起来,并内嵌进软件系统做成既定的可点选菜单模式,医生依据实际情况在菜单中点选合适的临床术语描述患者情况。由此,该专业术语及其链接的医学编码便自动提交医生确认,并在之后提交专职编码员审核。NLP和SI的优劣势比较如表1所示。


表1 两种计算机辅助编码方法比较


图1 计算机辅助编码方法的分类


CAC一般工作流程如图2所示。NLP和SI在工作流程上相似,但也存在差异,主要有两点:对信息进行标准化处理的时间和内容不同。SI要求在流程初始阶段即提供编码引擎以结构化的原始信息,其显著特点是在医疗记录第一次产生时就自动内嵌了相应的编码,相当于医生在记录档案时就使用了标准术语而计算机自动将其赋予对应编码。NLP可以直接处理自由文本信息并产生编码,此时医生已完成原始档案信息的记录(未编码),原始记录可能存在记录不清、用词不标准、错别字、缩略语等问题;系统更新维护的技术不同。两种方法均可依据编码后质控过程中产生的反馈信息进行更新完善,但NLP使用了人工智能技术,其可在实际编码工作中不断自主学习,提升表现,不需人工补充所有明确的编码规则,系统更新维护要简单一些。


图2 计算机辅助编码的一般工作流程


2、计算机辅助编码国内外应用现况及发展趋势


CAC自上世纪90年代起逐渐步入发展快车道,并在近十年间获得飞速发展。Markets and Markets的市场调研报告指出,CAC有望将既有工作效率提升15%-20%,全球CAC市场预计将会一直保持两位数的年复合增长率,并在2019年之前达到35亿美元的市值,而在2013年,北美地区占有最大的市场份额,欧洲和亚太地区分列其后。


国外现状 由于CAC在北美地区的发展与推广进程领先于世界其他区域,因此笔者选取美国为切入点,对CAC在美国的应用现状及发展趋势进行简介。2013年美国医院IT市场年报通过分析全美近4300家医院的数据指出2012年美国医院CAC系统的普及率约为12.78%,相比2011年的17.17%,2010年的14.63%略有下降。其主要原因是该次年报对CAC采用了新的定义方式,即使用基于NLP和专利授权算法的软件自动分析电子医疗记录进行预编码,输出相应的当代操作术语集(CPT)和国际疾病分类(ICD)中的标准术语及对应编码。由该定义可知,2013年年报采用了更贴近医院编码工作核心内容且较为严格的系统定义,排除了只依靠SI的CAC和一般的编码解码器,属于先进性、复杂性、完整性较高的编码解决方案。若采用AHIMA的定义,美国医院CAC系统的普及程度会更高。报告中还指出,2012年约四分之一的学术型医疗中心均采用了CAC系统,普及率最高,此外,普及率与医院床位数呈正比,2012年600张床位以上医院的系统普及率高达27.81%。由此可见大医院对CAC的需求会更高,也可能产生更大的效用。从CAC系统实际产出来看,一项旨在评估基于SI的CAC系统工作效用的研究显示,研究纳入的3家医疗机构医院通过使用CAC系统将相应科室的编码准确率提高了40%-50%,改善了档案记录质量,大大提升了账单通量和医疗费用报销状况,增加了机构收入。另一项基于20家医院的研究显示,使用CAC系统可将医院编码员每小时对患者住院记录的编码量提高21%,减少编码员66%的加班时间。美国匹兹堡大学医学中心使用CAC后,其次年即发现对医学编码外部稽查的依赖性降低50%,相应地可以减少50万美元的编码稽查费用。2013年AHIMA开展的一项实证研究同样发现,与纯手工编码相比,CAC不仅可以节省单条记录的编码时间(研究显示约可节约22%的时间)而且并不影响编码的准确性,随着时间的推移,训练语料的积累,以NLP为基础的计算机编码工具通过不断学习,其编码准确性会逐渐提升。虽然不同的研究基于不同的CAC系统,应用于不同类型的文档资料,很难将各个研究的结果进行直接比较和延伸。但总体来说,CAC仍是提升医学编码效率、编码准确性的有力工具。


国内现状 国内大多数医院都会采用编码解码器或者映射规则库辅助医学编码,但有关CAC技术研究及实际应用效果的报道较少。中国疾病预防控制中心开发出了根本死因自动编码工具,但该工具需基于已编码的死因诊断;刘悦等基于MYSQL Server实现的疾病诊断自动编码需建立临床实际诊断用语到标准疾病名称的映射规则库,其优点是针对已有映射规则的案例可高效、可靠地自动编码,缺点是映射规则库建立难且需人工不断更新;杨兰等开发的计算机辅助ICD-10编码系统由于需要编码员先行确定医嘱的主导词并输入系统才能启动自动编码过程,虽然增添了其他功能,但从辅助编码角度来说仍是医学编码解码器;黄家驹开发的软件工具通过将中文疾病诊断名称用NLP处理后使用谷歌翻译翻译为英文关键词再基于英文版ICD-10查询反馈合适编码,基于测试数据集获得了71.8%的准确率;鲍庆升等和宁温馨等构建的系统则直接基于中文疾病诊断名称使用NLP处理后基于特定文本相似度算法获取置信度较高的预编码结果,分别在各自的测试数据集上取得了79.23%的准确性和85.82%的准确性。黄家驹,鲍庆升等,宁温馨等的疾病自动化编码方案均使用了NLP,从工作流程上来看比较符合本文所介绍的基于NLP的CAC方法,但这三个系统均只适用于逐条存储的疾病诊断记录,尚不能处理可能包含多条疾病诊断的自由文本记录。从已有研究报道可以看出,首先,与美国相比,目前CAC在我国仍处于研究起始阶段,主要集中在疾病诊断编码上,尚未广泛投入各级医疗机构的日常编码工作;其次,将CAC应用于中文疾病诊断名称自动编码上可行且从实验结果来看该技术方法具有较大的发展潜力。 


3、计算机辅助编码优劣势分析


CAC优劣势如表2所示,其优势集中体现在将编码员的角色转变为编码审核专家,减少或加速了编码流程中特定手工操作环节,比如文档的整理、存储与检索,重复鉴定,编码检索、选择预排序,数据录入等等,让编码员把更多的时间与精力放在复杂案例的编码上。此外,CAC通过程序化既往编码经验以及既定的编码原则,可进一步提高编码的准确性并保证编码一致性,尤其当编码员具有不同层次水平的经验和技能水平时。CAC的劣势则体现在其所带来的额外软硬件开销、对既有工作模式及习惯的挑战、对既有信息化基础设施的高配套要求等诸多方面。需特别注意的是,就目前而言尚不存在哪种CAC系统可在无编码员参与下达到业内专家所期望的准确率95%以上的工业标准,因此CAC并不能完全替代专职编码员。AHIMA建议在CAC完全发展成熟之前,最好让编码员百分之百审核输出的推荐列表,以弥足系统不足、纠正可能存在的错误。所以,编码员的专业技能水平和经验对编码的效率及质量仍有较大影响,而对编码员进行定期培训帮其夯实诸如解剖学、生理学、临床术语等专业知识基础,提升技术业务水平也是行业发展的必然要求。


表2 计算机辅助编码系统应用优势及劣势


在当今卫生信息化迅猛发展,医疗卫生数据海量积累,信息标准化需求空前膨胀的大背景下,医学编码日渐转变为一项专业性强、标准化程度高、工作负荷大、更新变化速度快、容错性低的重要工作,深刻挑战着现有的工作模式和方法。仅以国际疾病编码(ICD)为例,ICD-9仅包含约4000多条操作编码和14 000多条疾病编码,而ICD-10则包含了约72000多条操作编码和68 000多条疾病编码,而且仍在不断更新完善,这无疑极大地提升了疾病编码的工作量和难度。因此,CAC的出现及发展迎合了医疗卫生信息化前进的新形势,具有时代必然性。我国具有较欧美发达国家更大的医学编码市场体量及标准化需求,未来有必要加强基于中文语境的CAC方法学研究及确证研究,开发出高效、稳定、成熟、易用、更适中国国情的多样化CAC解决方法,并在各层级医疗机构中推广应用,满足不同机构的医学编码需要,帮助解决编码工作中现存的编码效率低、错误概率高、各机构间统一性差等问题,提升医疗记录标准化程度,为后续医疗卫生数据的挖掘与利用铺平道路,不断提升我国医疗卫生信息化和医疗服务水平,促进我国医疗卫生事业全面健康发展。


文章来源:《中国数字医学》杂志2018年第01期,作者及单位:秦宇辰 吴骋 王志勇 贺佳,第二军医大学卫生勤务学系卫生统计教研室、第二军医大学附属长海医院信息科。


欢迎关注,CHINC服务号获取最新大会消息


公众号ID:jcdm2006

传播数字医学领域发展最新动态,关注医疗卫生信息化相关资讯。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存